为了简化图书馆管理的过程,已经采用了许多技术,但其中大多数专注于库存管理。在发行和返回图书馆的发行和返回图书馆的领域,几乎没有任何自动化进展。在大学和学校中,宿舍经常忘记及时将发行的书籍返回图书馆。为了解决上述问题并确保及时提交已发行的书籍,这项工作开发了一个解决这些复杂性的书籍机器人。该机器人可以从A点到B点通勤,扫描并验证QR码和条形码。该机器人将具有一定的有效载荷能力来携带书籍。 QR码和条形码扫描将由PI摄像头,OpenCV和Raspberry Pi启用,从而使书籍交换安全。机器人的探测器操作将通过Blynk应用程序手动控制。本文着重于如何减少人类干预,并在机器人的帮助下自动化图书馆管理系统的问题。
translated by 谷歌翻译
This work introduces the novel task of Source-free Multi-target Domain Adaptation and proposes adaptation framework comprising of \textbf{Co}nsistency with \textbf{N}uclear-Norm Maximization and \textbf{Mix}Up knowledge distillation (\textit{CoNMix}) as a solution to this problem. The main motive of this work is to solve for Single and Multi target Domain Adaptation (SMTDA) for the source-free paradigm, which enforces a constraint where the labeled source data is not available during target adaptation due to various privacy-related restrictions on data sharing. The source-free approach leverages target pseudo labels, which can be noisy, to improve the target adaptation. We introduce consistency between label preserving augmentations and utilize pseudo label refinement methods to reduce noisy pseudo labels. Further, we propose novel MixUp Knowledge Distillation (MKD) for better generalization on multiple target domains using various source-free STDA models. We also show that the Vision Transformer (VT) backbone gives better feature representation with improved domain transferability and class discriminability. Our proposed framework achieves the state-of-the-art (SOTA) results in various paradigms of source-free STDA and MTDA settings on popular domain adaptation datasets like Office-Home, Office-Caltech, and DomainNet. Project Page: https://sites.google.com/view/conmix-vcl
translated by 谷歌翻译
心室心动过速(VT)可能是全世界425万人心脏死亡的原因之一。治疗方法是导管消融,以使异常触发区域失活。为了促进和加快消融过程中的定位,我们提出了基于卷积神经网络(CNN)的两种新型定位技术。与现有方法相反,例如使用ECG成像,我们的方法被设计为独立于患者特异性的几何形状,直接适用于表面ECG信号,同时还提供了二元透射位置。一种方法输出排名的替代解决方案。可以在通用或患者的几何形状上可视化结果。对CNN进行了仅包含模拟数据的数据集培训,并在模拟和临床测试数据上进行了评估。在模拟数据上,中值测试误差低于3mm。临床数据上的中位定位误差低至32mm。在所有临床病例中,多达82%的透壁位置被正确检测到。使用排名的替代溶液,在临床数据上,前3个中值误差下降到20mm。这些结果证明了原理证明使用CNN来定位激活源,而无需固有的患者特定的几何信息。此外,提供多种解决方案可以帮助医生在多个可能的位置中找到实际激活源。通过进一步的优化,这些方法具有加快临床干预措施的高潜力。因此,他们可以降低程序风险并改善VT患者的结局。
translated by 谷歌翻译
Boll Weevil(Anthonomus Grandis L.)是一种严重的害虫,主要以棉花为食。由于亚热带气候条件,在德克萨斯州的下里奥格兰德山谷等地方,棉花植物可以全年生长,因此,收获期间上一个季节的剩下的种子可以在玉米中的旋转中继续生长(Zea Mays L.)和高粱(高粱双色L.)。这些野性或志愿棉花(VC)植物到达Pinhead平方阶段(5-6叶阶段)可以充当Boll Weevil Pest的宿主。得克萨斯州的鲍尔象鼻虫根除计划(TBWEP)雇用人们在道路或田野侧面生长的风险投资和消除旋转作物的田间生长,但在田野中生长的植物仍未被发现。在本文中,我们证明了基于您的计算机视觉(CV)算法的应用,仅在三个不同的生长阶段(V3,V6)(V3,V6)中检测出在玉米场中生长的VC植物,以检测在玉米场中生长的VC植物的应用。使用无人飞机系统(UAS)遥感图像。使用Yolov5(S,M,L和X)的所有四个变体,并根据分类精度,平均平均精度(MAP)和F1得分进行比较。发现Yolov5s可以在玉米的V6阶段检测到最大分类精度为98%,地图为96.3%,而Yolov5s和Yolov5m的地图为96.3%,而Yolov5m的分类精度为85%,Yolov5m和Yolov5m的分类准确性最小,而Yolov5L的分类精度最少。在VT阶段,在尺寸416 x 416像素的图像上为86.5%。开发的CV算法有可能有效地检测和定位在玉米场中间生长的VC植物,并加快TBWEP的管理方面。
translated by 谷歌翻译
虽然视觉变压器(VT)体系结构在计算机视觉中越来越流行,但纯VT模型在微小的数据集上的性能较差。为了解决这个问题,本文提出了改善小型数据集VT性能的地方指南。我们首先分析,由于VTS中自我注意的机制的高灵活性和内在的全球性,因此很难用有限的数据来学习局部信息,这对于理解图像非常重要。为了促进本地信息,我们通过模仿已经训练有素的卷积神经网络(CNN)的特征来实现VT的当地指南,灵感来自CNN的内置本地到全球层次结构。在我们的双任务学习范式下,由低分辨率图像训练的轻型CNN提供的局部指导足以加速收敛并在很大程度上提高VT的性能。因此,我们的本地指导方法非常简单有效,可以作为小型数据集中VT的基本性能增强方法。广泛的实验表明,我们的方法在小型数据集中从头开始训练时可以显着改善VT,并且与不同种类的VT和数据集兼容。例如,我们提出的方法可以将各种VT在微型数据集上的性能提高(例如,DEIT 13.07%,T2T为8.98%,PVT为7.85%),并使更强大的基线PVTV2提高了1.86%至79.30%,显示出来小型数据集上的VT潜力。该代码可从https://github.com/lkhl/tiny-transformers获得。
translated by 谷歌翻译
最近的工作表明,视觉变压器(VTS)的注意力图在接受自学训练时,可以包含一种语义分割结构,在监督训练时不会自发出现。在本文中,我们明确鼓励这种空间聚类的出现作为一种培训正规化的形式,这种方式包括在标准监督学习中进行自我监督的借口任务。更详细地,我们根据信息熵的空间公式提出了一种VT正则化方法。通过最大程度地减少提议的空间熵,我们明确要求VT生成空间有序的注意图,这是在训练过程中包括基于对象的先验。使用广泛的实验,我们表明,在不同的培训方案,数据集,下游任务和VT体系结构中,提出的正则化方法是有益的。该代码将在接受后可用。
translated by 谷歌翻译
最近的工作[4]分析了两次可差化函数的最佳解决方案附近的亚当局部融合。结果发现,学习率必须足够小,以确保最佳解决方案的局部稳定性。以上的收敛结果也适用于Adamw。在这项工作中,我们提出了一种新的自适应优化方法,通过在两个方面扩展Adamw,以便放宽对局部稳定性的小型学习率的要求,我们称之为AIDA。首先,我们考虑跟踪梯度大小的第2矩R_T。当p = 2时,r_t减少到adamw的v_t。假设{m_t}是adamw的第一个时刻。众所周知,更新方向M_ {T + 1} /(v_ {t + 1} + epsilon)^ 0.5(或m_ {t + 1} /(v_ {t + 1} ^ 0.5 + epsilon)的Adamw(或者亚当)可以被分解为标志向量符号(M_ {t + 1})通过幅度的向量乘以量数| m_ {t + 1} | /(v_ {t + 1} + epsilon)^ 0.5(或| m_ {t + 1} | /(v_ {t + 1} ^ 0.5 + epsilon)。Aida旨在以| m_ {t + 1} | ^ q /(r_ {t + 1} + epsilon)^(q / p)(或| m_ {t + 1} | ^ q /((r_ {t + 1})^(q / p)+ epsilon),减少到当(p,q)=(2,1)时的adamw。假设原点0是两次可差化函数的本地最佳解决方案。理论上是在理论上发现的,当Q> 1和P> 1在Aida中,原点0只有当重量衰减是非零时局部稳定。进行实验,用于解决十个玩具优化问题和训练变压器和训练变压器和Swin变压器,为两个深度学习(DL)任务。实证研究表明,在许多场景中表明(包括两个DL任务),AIDA具有特定设置(P,Q)不等于(2,1)优于Adamw的设置(p,q)=(2,1)。
translated by 谷歌翻译
视觉变换器(VTS)作为卷积网络(CNNS)的架构范式替代品。与CNN不同,VT可以捕获图像元素之间的全局关系,并且它们可能具有更大的表示容量。然而,缺乏典型的卷积电感偏差使这些模型比普通的CNN更饥饿。实际上,嵌入在CNN架构设计中的某些本地属性,在VTS中应该从样品中学习。在本文中,我们明确地分析了不同的VTS,比较了他们在小型训练制度中的鲁棒性,并且我们表明,尽管在想象中训练时具有可比的准确性,但它们在较小数据集上的性能可能很大程度上不同。此外,我们提出了一种自我监督的任务,可以从图像中提取其他信息,只有可忽略不计的计算开销。这项任务鼓励VTS学习图像内的空间关系,并使VT培训在训练数据稀缺时更加强劲。我们的任务与标准(监督)培训共同使用,它不依赖于特定的架构选择,因此它可以轻松插入现有的VTS。使用与不同的VTS和数据集进行广泛的评估,我们表明我们的方法可以改善(有时显着地)VTS的最终精度。我们的代码可用于:https://github.com/yhlleo/vts-droc。
translated by 谷歌翻译